68 research outputs found

    Improving the efficiency of search engines : strategies for focused crawling, searching, and index pruning

    Get PDF
    Ankara : The Department of Computer Engineering and the Instıtute of Engineering and Science of Bilkent University, 2009.Thesis (Ph. D.) -- Bilkent University, 2009.Includes bibliographical references leaves 157-169.Search engines are the primary means of retrieval for text data that is abundantly available on the Web. A standard search engine should carry out three fundamental tasks, namely; crawling the Web, indexing the crawled content, and finally processing the queries using the index. Devising efficient methods for these tasks is an important research topic. In this thesis, we introduce efficient strategies related to all three tasks involved in a search engine. Most of the proposed strategies are essentially applicable when a grouping of documents in its broadest sense (i.e., in terms of automatically obtained classes/clusters, or manually edited categories) is readily available or can be constructed in a feasible manner. Additionally, we also introduce static index pruning strategies that are based on the query views. For the crawling task, we propose a rule-based focused crawling strategy that exploits interclass rules among the document classes in a topic taxonomy. These rules capture the probability of having hyperlinks between two classes. The rulebased crawler can tunnel toward the on-topic pages by following a path of off-topic pages, and thus yields higher harvest rate for crawling on-topic pages. In the context of indexing and query processing tasks, we concentrate on conducting efficient search, again, using document groups; i.e., clusters or categories. In typical cluster-based retrieval (CBR), first, clusters that are most similar to a given free-text query are determined, and then documents from these clusters are selected to form the final ranked output. For efficient CBR, we first identify and evaluate some alternative query processing strategies. Next, we introduce a new index organization, so-called cluster-skipping inverted index structure (CS-IIS). It is shown that typical-CBR with CS-IIS outperforms previous CBR strategies (with an ordinary index) for a number of datasets and under varying search parameters. In this thesis, an enhanced version of CS-IIS is further proposed, in which all information to compute query-cluster similarities during query evaluation is stored. We introduce an incremental-CBR strategy that operates on top of this latter index structure, and demonstrate its search efficiency for different scenarios. Finally, we exploit query views that are obtained from the search engine query logs to tailor more effective static pruning techniques. This is also related to the indexing task involved in a search engine. In particular, query view approach is incorporated into a set of existing pruning strategies, as well as some new variants proposed by us. We show that query view based strategies significantly outperform the existing approaches in terms of the query output quality, for both disjunctive and conjunctive evaluation of queries.Altıngövde, İsmail SengörPh.D

    Static index pruning in web search engines

    Get PDF
    Static index pruning techniques permanently remove a presumably redundant part of an inverted file, to reduce the file size and query processing time. These techniques differ in deciding which parts of an index can be removed safely; that is, without changing the top-ranked query results. As defined in the literature, the query view of a document is the set of query terms that access to this particular document, that is, retrieves this document among its top results. In this paper, we first propose using query views to improve the quality of the top results compared against the original results. We incorporate query views in a number of static pruning strategies, namely term-centric, document-centric, term popularity based and document access popularity based approaches, and show that the new strategies considerably outperform their counterparts especially for the higher levels of pruning and for both disjunctive and conjunctive query processing. Additionally, we combine the notions of term and document access popularity to form new pruning strategies, and further extend these strategies with the query views. The new strategies improve the result quality especially for the conjunctive query processing, which is the default and most common search mode of a search engine

    Evolution of web search results within years

    Full text link
    We provide a first large-scale analysis of the evolution of query results obtained from a real search engine at two distant points in time, namely, in 2007 and 2010, for a set of 630,000 real queries

    Diversity and novelty in information retrieval

    Get PDF
    This tutorial aims to provide a unifying account of current research on diversity and novelty in different IR domains, namely, in the context of search engines, recommender systems, and data streams

    BigDiv: Arama Sonuçlarında Cevap Çeşitlendirme için Verimli ve Ölçeklenebilir Yöntemler

    No full text
    Modern kelime-tabanlı arama sistemleri, cevap listesinde sorguyla en ilgili ve aynı zamanda sorgunun farklı anlam/yorumlarını en geniş şekilde kapsayabilen (yani, çeşitlendirilmiş) cevapları en üst sıralarda getirmeyi hedeflerler. Bu projenin amacı, genel-amaçlı veya dikey arama sistemlerinde ihtiyaç duyulan sorgu cevabı çeşitlendirme işlevi için dağıtık mimari üzerinde ve sistemin diğer bileşenleriyle uyumlu olarak etkin şekilde çalışabilecek verimli ve ölçeklenebilir yöntemler geliştirmektir. Bu amaca ulaşmak için dört ana hedef doğrultusunda çalışmalar gerçekleştirilmiştir. İlk hedefimiz olan 'Çeşitlendirme yöntemlerinde verimlilik' kapsamında çok-boyutlu cevap çeşitlendirme yaklaşımı önerilmiş, denetimli makine öğrenmesi kullanan cevap çeşitlendirme yaklaşımları geliştirilmiş, görsel arama senaryosu için yine denetimli öğrenme kullanan bir yaklaşım genişletilmiş, ve her sorgu için aday cevap kümesi büyüklüğünü kestirmek üzere bir yaklaşım önerilmiştir. Bu yaklaşımların her birinin literatürdeki rakiplerinden etkinlik ve/veya verimlilik bazında daha başarılı olduğu gösterilmiştir. İkinci hedef olan 'Cevap çeşitlendirme yöntemlerinde ölçeklenebilirlik' kapsamında cevap çeşitlendirme başarımı dağıtık mimarinin farklı katmanlarında ve sorgu işlemenin farklı aşamalarında incelenmiş, ve çeşitlendirme sırasında belgelerin kelime kodlamaları (word embeddings) kullanılarak temsil edilmesi önerilmiştir. Ele alınan dağıtık arama senaryosunda hem çeşitlendirme başarımının hem verimliliğin arttığı gösterilmiştir. Üçüncü hedef olan 'Cevap çeşitlendirme yöntemlerinin diğer verimlilik-odaklı bileşenlerle etkileşimi' kapsamında ise öncelikle cevap önbelleklerinde frekans geçmişini saklamak için bir yaklaşım uyarlanmış, ikinci olarak dinamik budama yaklaşımlarında verimliliği artıran bir skor önbelleği önerilmiş ve son olarak da çeşitlendirme-farkında bir statik endeks budama yöntemi geliştirilmiştir. Böylece arama motorlarında en çok kullanılan önbellekleme, dinamik budama ve statik endeks budama mekanizmalarının cevap çeşitlendirmeyle etkileşimine ışık tutulmuş ve/veya bu mekanizmalar cevap çeşitlendirmeyi destekleyecek şekilde geliştirilmiştir. Son hedefimiz olan 'Prototip tweet-arama sistemi' kapsamındaysa ilk olarak literatürde farklı alanlardaki yöntemleri de kapsayan bir cevap çeşitlendirme kütüphanesi gerçeklenmiş ve bu yöntemlerin başarımları değerlendirilmiştir. İkinci olarak da verimli çeşitlendirme yöntemlerinin kullanıldığı ve başarısının gösterildiği faydalı bir uygulama olarak Türkçe sorgular için Twitter API ile elde edilen cevapların çeşitlendirildiği bir prototip arama sistemi gerçeklenmiştir

    Topic-centric querying of web resources

    No full text
    Cataloged from PDF version of article.Altıngövde, İsmail SengörM.S

    Caching Scores for Faster Query Processing with Dynamic Pruning in Search Engines

    No full text
    We propose to use a score cache, which stores the score of the k.th result of a query, to accelerate top-k query processing with dynamic pruning methods (i.e., WAND and BMW). We introduce heuristics that, for a new query, generate its subsets and probe the score cache to obtain a lower-bound on its score threshold. Our experiments show up to 8.6% savings in mean processing time for the queries that are not seen before, i.e., cannot benefit from a result cache

    Impact of Regionalization on Performance of Web Search Engine Result Caches

    No full text
    Large-scale web search engines are known to maintain caches that store the results of previously issued queries. They are also known to customize their search results in different forms to improve the relevance of their results to a particular group of users. In this paper, we show that the regionalization of search results decreases the hit rates attained by a result cache. As a remedy, we investigate result prefetching strategies that aim to recover the hit rate sacrificed to search result regionalization. Our results indicate that prefetching achieves a reasonable increase in the result cache hit rate under regionalization of search results

    Arama Motorlarında Endeks Budama için Cevap Çeşitliliği Odaklı Algoritmalar

    No full text
    Arama motorları günümüzde web üzerinde bilgiye erişimin en temel yöntemlerinden biridir. Bir taraftan kurumlar ve bireyler tarafından üretilen dijital veri hacmi artarken, diğer taraftan da kullanıcıların her geçen gün daha hızlı ve kaliteli sorgu cevapları talep etmesi, arama motorları alanında hem verimlilik hem de cevap kalitesi açısından sürekli yeni ve akılcı yöntemlerin geliştirilmesini gerektirmektedir. Bu projede temel amaç, arama motorlarının verimliliği ve ölçeklenebilirliği için önemli bir mekanizma olan statik endeks budama (static index pruning) yöntemlerini, cevap kalitesi için yeni bir kriter olan sorgu cevaplarının çeşitliliği (result diversity) açısından değerlendirmek ve cevap çeşitliliğini korumaya ya da artırmaya odaklanmış yeni budama yöntemleri geliştirmektir

    Query performance prediction for aspect weighting in search result diversification

    No full text
    Accurate estimation of query aspect weights is an important issue to improve the performance of explicit search result diversification algorithms. For the first time in the literature, we propose using post-retrieval query performance predictors (QPPs) to estimate, for each aspect, the retrieval effectiveness on the candidate document set, and leverage these estimations to set the aspect weights. In addition to utilizing well-known QPPs from the literature, we also introduce three new QPPs that are based on score distributions and hence, can be employed for online query processing in real-life search engines. Our exhaustive experiments reveal that using QPPs for aspect weighting improves almost all state-of-the-art diversification algorithms in comparison to using a uniform weight estimator. Furthermore, the proposed QPPs are comparable or superior to the existing predictors in the context of aspect weighting.Accurate estimation of query aspect weights is an important issue to improve the performance of explicit search result diversification algorithms. For the first time in the literature, we propose using post-retrieval query performance predictors (QPPs) to estimate, for each aspect, the retrieval effectiveness on the candidate document set, and leverage these estimations to set the aspect weights. In addition to utilizing well-known QPPs from the literature, we also introduce three new QPPs that are based on score distributions and hence, can be employed for online query processing in real-life search engines. Our exhaustive experiments reveal that using QPPs for aspect weighting improves almost all state-of-the-art diversification algorithms in comparison to using a uniform weight estimator. Furthermore, the proposed QPPs are comparable or superior to the existing predictors in the context of aspect weighting
    corecore